Day 16：加入網頁爬蟲資訊來源（Web Crawler）

2025 iThome 鐵人賽

自我挑戰組

用 Dify 打造一個 AI 個人助理系列第 16 篇

17th鐵人賽

chia0990

2025-10-17 19:41:36

447 瀏覽

分享至

今天想讓我的 AI 能「自己去找資料」，所以試著在 Dify 裡加入 Web Crawler（網頁爬蟲）功能。這樣就算沒有 API，也能讓它從網頁上抓到最新的內容。

我在 Dify 的 Tools 區域裡新增一個工具，選擇「Web Crawler」類型。我設定了一個測試網址用 iThome 的新聞頁當例子。工具設定完後，把它加入我的助理，讓它可以自動決定是否使用這個爬蟲。然後我問它：「請幫我找一篇關於 AI 最新發展的 iThome 新聞。」結果它先顯示「Agent is calling: Web Crawler」，幾秒後就抓出一段摘要，還附上來源網址！

我學到Dify 的爬蟲工具不像傳統爬蟲那麼複雜，不用寫程式，它會自動幫我解析文字。但要注意的是，它只能抓到公開網頁，不能登錄或有權限限制的內容。Agent 會自己判斷要不要用爬蟲，所以問題要問得夠明確，它才會啟動工具。

心得
這次操作讓我感覺到 AI 真正的「自主能力」又更進一步。以前我得自己上網搜尋、整理資料，現在我只要問，它就能幫我找、幫我濃縮。雖然結果有時不完美，但對學習或研究來說已經非常實用。我開始想如果我把它改成抓醫療資訊網站的內容，是不是能做出一個「自動更新的新聞助理」？這樣每天都能知道最新的技術消息。